﻿Teme de licență 2016 Dan Cristea 1 Parametrizarea Portalului COROLA în cotuletă cu lector dr Alex Moruz (alex moruz@gmail com), drd Andrei Scutelnicu (andreiscutelnicu@gmail com) COROLA este un acronim de la C​Orpus of ROmanian LAnguage​ Numele complet al proiectului este Corpus Computațional Reprezentativ al Limbii Române Contemporane, un proiect prioritar al Academiei Române, în curs de realizare la Institutul de Inteligență Artificială București și Institutul de Informatică Teoretică din Iași Portalul proiectului poate fi accesat la adresa: http://78 96 45 245/ Actualmente Portalul găzduiește tehnologii care realizează următoarele operațiuni: - cură ț irea textelor primite de la colaboratorii no ș tri (edituri, autori etc ) de formate de tipărire - proces semiautomat; - completarea metadatelor ce trebuie să înso ț ească documentele (autor, editură, an apariție etc ) - proces semiautomat; - lansarea unui lan ț de prelucrări lingvistice care urmăresc adnotarea automată cu informații de segmentare și de natură morfologică: granițe de propoziții și cuvinte, părți de vorbire și leme Ulterior, după perfecționarea instrumentelor corespunzătoare, se urmărește adăugarea și a altor niveluri de analiză: sintactică, semantică etc Activitățile manuale se derulează prin intermediul unei interfețe web Proiectul de licență urmărește parametrizarea activităților Portalului pentru a separa procedurile aplicabile oricărei limbi de cele specifice unei limbi anume În felul acesta, adaptarea lui pentru o anumită limbă ar implica particularizări ș i accesul la resurse specifice (lan ț uri specifice de prelucrare etc ) În esență se va dezvolta un f​ramework​de creare a corpusurilor, care poate interesa foarte mulți cercetători preocupați de construirea de corpusuri pentru limbile care nu dispun încă de astfel de resurse 2 Monitorizarea activităților în Portalul COROLA Se urmărește monitorizarea dinamicii corpusului COROLA În particular, complexitatea deosebită a acestui corpus, datorată sutelor de mii ori milioanelor de fişiere de text şi voce care vor trebui să-l compună şi a adnotărilor adăugate lor, parţial automat, parţial manual, precum şi dinamica achiziţionării lui, care se va desfăşura pe parcursul a mai multor ani, impune o monitorizare atentă a evoluţiei lui IIT a elaborat deja (Cristea et al , 2014) un graf de dependenţe între schemele de adnotare care să facă posibilă asignarea unui unic identificator (corespunzător nodului din graf ce caracterizează adnotarea pe care o include) fiecărui fişier aflat într-o anumită fază de adnotare Simultan, se urmărește ca fişierele să aibă asociate în partea lor de metadate, între altele, şi schema de codificare, tipul adnotărilor (manuală sau automată), instrumentele de adnotare folosite, versiunile lor etc Existenţa grafului de dependenţe între diferitele scheme de adnotare permite regăsirea şi complementarea informaţiei din metadate referitoare la adnotarea unui anumit text Va exista o legătură directă între metadate, graful de dependenţe şi schemele de adnotare Această viziune va face posibilă: 1) identificarea adnotărilor contribuite de experţi manual faţă de echivalentul lor inclus automat de tehnologie; 2) urmărirea lanţului de adnotări adăugate unui fişier, pe măsura rulării acestuia şi continuarea în cazul întreruperilor; 3) calcularea minimului de elemente s​tand-off necesar de refăcut în cazul înlocuirii unui modul cu altul perfecţionat; 4) elaborarea unor indicatori globali şi unor statistici care să oglindească stadiul evoluţiei corpusului, 5) definirea restricţiilor asupra interogărilor KWIC (k​ey word in context​) posibil de adresat fiecărui fişier în funcţie de adnotările pe care le include​etc 3 Formularea interogărilor GGS în limbaj natural În cotutelă cu drd Radu Simionescu (radsimu@gmail com) GGS-3 (G​raphical Grammar Studio​) este un sistem cadru de dezvoltare a grafurilor de tip rețele tranzitive recursive (r​ecursive transitive networks​- RTN), prin care se pot descrie reguli simbolice de prelucrare a limbajului natural Puterea lor de prelucrare depășește cu mult cea a expresiilor regulate, pentru că limbajul GGS-urilor acceptă definirea de variabile pentru memorarea temporară de valori, parsarea în avans sau retroactivă fără consumarea tokenilor de intrare, definirea de macro-uri etc GGS-3 a fost aplicat până acum cu succes la definirea de reguli pentru corectarea erorilor adnotărilor la parte de vorbire lăsate de un POS-tagger statistic, la antrenarea de parsere sintactice și la generarea de gramatici sintactice (Simionescu, 2014, 2015, 2016) Datorită flexibilității și puterii lui de exprimare, se speră ca GGS-3 să poată fi utilizat la formularea de constrângeri pentru regăsirea de contexte de apariție ale cuvintelor în corpusul COROLA (v mai sus) Proiectul urmărește realizarea unei interfețe în limbaj natural care să preia exprimări simple de condiții și să genereze secvențe GGS-3, care, adresate corpusului COROLA (sau oricărui altui corpus care respectă același format), să genereze liste de contexte (co-ocurențe) care respectă condițiile Exemple de astfel de interogări KWIC (k​ey word in context​): - Vreau ocuren țele lemei ‘mi șca' (vb) ​=> se va genera o listă de ocuren ț e centrate pe formele verbului ‘a mișca', cu contexte stânga-dreapta care includ, implicit, doar fraza în care apare verbul; - ‘sufla' urmat de ‘în' (contexte dreapta în lungime de 5 cuvinte) ​=> se va genera o lista de ocurențe care încep cu o formă a verbului ‘a sufla' și continuă de prepoziția ‘în' și cel mult încă 3 cuvinte; - exemple ale verbului ‘a duce' în care apare un complement circumstan țial instrumental => se va genera o listă de contexte frazale în care verbul ‘a duce' este urmat de un complement circumstanțial instrumental (ex: “Ieri, Ion a fost atât de amabil să mă ducă cu mașina la gară ”) 4 Inferarea gramaticii unei limbi Proiect propus de drd Radu Simionescu (radsimu@gmail com) - luați legătura direct cu dânsul 5 Recunoașterea relațiilor semantice în texte Ariton Andrei - aryton andrey19@yahoo com, andrei ariton@info uaic ro - pt relații de rudenie Andreia Băiceanu - andreia baiceanu@yahoo com, mihaela baiceanu@info uaic ro - pt relații afective și sociale Tema urmărește antrenarea unui program care să recunoască diferite tipuri de relații semantice care sunt exprimate într-un text liber între mențiuni de entități O entitate poate fi: p​ersoană​sau parte fizică a unei persoane,​i​nstituție,​l​ocație geografică​etc Exemple de mențiuni de entități de tip p​ersoană:​I​on​, e​l​, b​ărbatul cu pălărie de soare​, s​a​; p​ărți fizice de persoane:​ mâna sa dreaptă​, o​chii​, p​iciorului​etc ; i​nstituții:​U​niversitatea “Alexandru Ioan Cuza”​, P​rimărie​, PNL​etc ; locații geografice: I​ași​, B​ulevardul Copou​, P​alas Mall​etc Iată și câteva exemple de relații: - r​eferen ț ialitate ​de tip p​art-of :​X part-of Y dacă X este o parte fizică a persoanei Y 1:[I​on​] ș​i-a acoperit​2:[o​chii​] c​u​3:[m​âna​] => part-of , part-of - diferite tipuri de rudenie ( k​inship )​: X d​aughter ​Y dacă X este fiica lui Y, X p​arent ​Y dacă X este părinte pentru Y etc 1:[f​iica lui​2:[Z​amolxis​]] => daughter-of Când​1:[ț​i]-​ai vizitat​2:[p​ărinții​] u​ltima oară? ​=> parent - rela ț ii spa ț iale: Când urci ​1:[B​ulevardul Copou],​pe stânga ai să întâlnești clădirea ​2:[U​niversității] ​=> stabiliți voi ce relație se poate afirma între entitățile și ? În antrenare se vor folosi două corpusuri care conțin notații ale entităților și relațiilor, construite manual: QuoVadis și MappingBooks, ambele amintite la curs Sarcina voastră este de a crea patternuri de recunoaștere a relațiilor, de a găsi trăsăturile cele mai relevante pentru recunoașterea relațiilor și de a antrena pachete de statistică (Weka etc ) în acest scop 6 Deducerea abilităților de manevră în jocuri interactive proiect propus de studentul Petru Manea